I StatSoft  StatSoft Polska, tel. 12 428 43 00, 601 41 41 51, info(Qstatsoft.pl, www.StatSoft.pl 


SZTUCZNA INTELIGENCJA WE WSPOMAGANIU PROCESU 
PROGNOZOWANIA W PRZEDSIĘBIORSTWIE 


Tadeusz A. Grzeszczyk, Politechnika Warszawska, 
Instytut Organizacji Systemów Produkcyjnych 


Autor bada zintegrowane systemy sztucznej inteligencji, m.in. służące wspomaganiu proce- 
su prognozowania w przedsiębiorstwie. Zgodnie z przyjętymi założeniami systemy te 
powinny umożliwiać zastosowanie zróżnicowanych, komplementarnych metod do analizy 
ilościowych i jakościowych parametrów. W artykule rozważa się możliwość wykorzystania 
sieci neuronowej do modelowania szeregu czasowego oraz do integracji wyników takiej 
analizy ilościowej z atrybutami decyzyjnymi wyznaczanymi z bazy wiedzy zawierającej 
ekspercką ocenę jakościową. Atrybuty decyzyjne wynikające z analizy jakościowych 
informacji zapisanych w bazie wiedzy mogą modyfikować prognozy ilościowe z punktu 
widzenia trudnych do ilościowego opisu czynników. Uzyskane w wyniku integracji 
prognozy kombinowane są dokładniejsze niż prognozy ilościowe wyznaczone za pomocą 
pojedynczych sieci neuronowych. 


Wprowadzenie 


Jak wiadomo, do prognozowania (predykcji, przewidywania) najczęściej wykorzystuje się, 
znane od wielu lat i bardzo rozpowszechnione, metody statystyczne [Dittmann 2004]. 
Niekiedy prognozy są oparte na opiniach doświadczonych i obdarzonych dużą intuicją 
ekspertów. Oba te podejścia nie gwarantują jednak minimalizacji błędów prognozy. 
Niekiedy, zależnie od potrzeb, stosuje się większą liczbę zróżnicowanych metod, 
zaliczanych do jednej lub obu wymienionych rodzajów. W efekcie ostateczna prognoza jest 
najczęściej wyznaczana jako średnia prosta lub średnia ważona prognoz cząstkowych (tzw. 
prognoza kombinowana). 


W procesie prognozowania mogą być przydatne instrumenty sztucznej inteligencji. 
Sztuczna inteligencja stanowi dziedzinę informatyki, której przedmiotem jest zarówno 
poszukiwanie nowych dziedzin zastosowań komputerów, jak również nowych metod ich 
programowania oraz nowych metod rozwiązywania zadań przez komputery [Stefanowicz 
1993]. Wśród narzędzi analiz szeregów czasowych znajdują się m.in. sztuczne sieci neuro- 
nowe (ang. artificial neural network), np.: [Duch, Korbicz, Rutkowski, Tadeusiewicz 
2000], [Witkowska 2002]. Eksperymentatorzy posługujący się pojedynczymi sieciami 
neuronowymi, w wielu doświadczeniach, uzyskują efekty lepsze niż w przypadku 
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zastosowania innych metod statystycznych. Występują jednak badania, które dowodzą, ze 
niekiedy walory tych ostatnich metod przeważają nad korzyściami, wynikającymi z zasto- 
sowania pojedynczych sieci neuronowych (np. [Tang, Almeida, Fishwick 1991]). Nie ulega 
wątpliwości, że wszystkie wymienione wyżej rodzaje metod nie sprawdzają się, gdy 
występują różne nietypowe sytuacje, np. w przypadku podjęcia dużej kampanii rekla- 
mowej, promocji określonego towaru lub usługi itp. 


Jednym z możliwych rozwiązań tego problemu może być formułowanie prognoz w oparciu 
o zarówno ilościowe, jak i jakościowe metody prognozowania. Celowe jest wykorzystywa- 
nie zintegrowanych (zespolonych) metod prognozowania, bazujących na ilościowych 
analizach danych historycznych oraz na subiektywnych ocenach ekspertów (przedsiębior- 
ców). Atrybuty decyzyjne wynikające z analizy jakościowych informacji zapisanych w ba- 
zie wiedzy mogą modyfikować prognozy ilościowe z punktu widzenia trudnych do 
ilościowego opisu czynników. Uzyskane w wyniku integracji prognozy kombinowane są 
zwykle dokładniejsze niż prognozy ilościowe. 


W przypadku (tworzonych dla różnych zastosowań) metod zintegrowanych (hybrydowych) 
łączy się różne podejścia tak, aby funkcjonowały w jednym spójnym systemie, np. [Lingras 
1998], [Sankar, Polkowski, Skowron 2004], [Szczuka 1998], [Kuo 2001]. Umiejetna integ- 
racja kilku metod, w celu stworzenia jednej zintegrowanej metody prognozowania, pozwala 
na przejmowanie najlepszych cech pojedynczych systemów oraz na eliminowanie ich wad. 


Autor zdecydował się na badanie zespolonych systemów równoległych, które charaktery- 
zują się niezależnym działaniem wchodzących w jego skład różnych podsystemów, wśród 
których mogą występować podsystemy analizy zarówno ilościowej, jak i jakościowej. 
Dużą zaletą zespolonych systemów (zarówno szeregowych, jak i równoległych) jest 
możliwość kolejnej indywidualnej realizacji stosunkowo prostych podsystemów. Umożli- 
wia to łatwiejszą realizację w porównaniu z systemami hybrydowymi (w których nie 
można wyodrębnić podsystemów funkcjonujących tylko w jeden określony sposób). 


Stosowanie zespolonych systemów równoległych pozwala na równoległą analizę danych 
pochodzących z niezależnych od siebie źródeł. Źródła te mogą mieć również odmienny 
charakter, tzn. ilościowy i jakościowy. W rozpatrywanym przykładzie wyniki ilościowe 
oznaczają konkretne wartości sprzedaży. Natomiast jakościowa analiza może się opierać 
np. na opiniach ekspertów. 


Dzięki równoległemu połączeniu obu podsystemów można wykorzystywać dwie, nawet 
całkowicie różne, metody analizy, np. sieci neuronowe oraz metodę wykorzystującą teorię 
zbiorów przybliżonych (szerzej na ten temat w pracach: [Grzeszczyk 2000, 20051). 
Końcowy wynik uzyskuje się w procesie integracji wyników dwóch podsystemów. W naj- 
prostszym przypadku proces integracji może polegać na wyznaczaniu średniej ważonej 
ilościowych wyników obu podsystemów. Dotyczyć to jednak może wyłącznie podsys- 
temów analizy ilościowej. W rozpatrywanym przypadku zdecydowano się na użycie sieci 
neuronowej. Jest to niezbędne, ponieważ integrowane wyniki mają różny charakter. Z jed- 
nej strony bowiem jest to konkretna ilościowa prognoza. Z drugiej natomiast występują 
wartości jakościowych atrybutów decyzyjnych korygujących (modyfikujących) wyniki 
ilościowe. Te jakościowe atrybuty są istotne tylko w nietypowych przypadkach (np. wystę- 
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powania promocji sprzedaży). Natomiast w sytuacjach typowych wynik analizy ilościowej 
jest wystarczający dla konstruowania prognoz, bez konieczności dokonywania korekt. 


Autor badał modele prognostyczne zbudowane na bazie różnego rodzaju sieci. Do porów- 
nywania ze sobą wyników uzyskanych za pomocą stworzonych modeli, zbudowanych przy 
wykorzystaniu pojedynczych sieci neuronowych oraz otrzymanych na wyjściu zespolonego 
systemu prognostycznego, stosował (oprócz jakościowych zestawień w postaci wykresów) 
ilościowe parametry zapewniające obiektywną konfrontację uzyskanych rezultatów. Do 
wykorzystanych w badaniach ilościowych miar jakości modeli neuronowych należały 
między innymi: statystyki regresyjne, błąd średniokwadratowy oraz średnie błędy 
względne, prognoz jedno- i pięciodniowych. Prognozy pozorne, wyznaczone za pomocą 
zintegrowanego systemu predykcji, charakteryzowały się znacznie mniejszymi błędami 
w porównaniu z błędami występującymi dla predykcji obliczanych przy użyciu pojedyn- 
czych sieci neuronowych. Uzyskane rezultaty eksperymentów potwierdziły przypuszczenia 
autora o możliwości oraz celowości zastosowania zintegrowanych metod sztucznej inteli- 
gencji w procesie prognozowania w przedsiębiorstwie. 


Celem prowadzonych badań jest poszukiwanie zintegrowanych metod krótkookresowego 
prognozowania w przedsiębiorstwie, bardziej efektywnych od pojedynczych sieci neuro- 
nowych. W szczególności eksperymenty dotyczą integracji wyników neuronowej analizy 
ilościowej z atrybutami decyzyjnymi eksperckiej oceny jakościowej uzyskanymi przy zas- 
tosowaniu metody zbiorów przybliżonych. W artykule krótko scharakteryzowano wyniki 
badań sieci neuronowych wykorzystywanych do ilościowej analizy szeregów czasowych 
oraz do łączenia (kombinacji) prognoz budowanych metodami ilościowymi z atrybutami de- 
cyzyjnymi wynikającymi z analizy wiedzy eksperckiej zapisanej w regułowej bazie wiedzy. 


Autor ograniczył rozważania do zwięzłej charakterystyki pojedynczych sieci neuronowych 
wykorzystywanych do modelowania szeregów czasowych oraz oceny możliwości zasto- 
sowania sieci neuronowych do budowy prognoz kombinowanych. Szczegółowe wyniki 
badań metody zbiorów przybliżonych mogącej być instrumentem służącym do zapisywania 
doświadczeń praktyków i ekspertów w formie reguł decyzyjnych opartych na materiałach 
empirycznych i umożliwiać stosunkowo łatwe przetwarzanie jakościowych informacji 
zaprezentowano w [Grzeszczyk 2005]. Teoria zbiorów przybliżonych została zapropono- 
wana w pracy [Pawlak 1982]. Za pomocą algorytmów, wynikających z tej teorii, można 
zbudować regułową bazę wiedzy uwzględniającą ważne zależności między atrybutami 
warunkowymi a decyzyjnymi. Te ostatnie pozwalają uwzględniać wpływ czynników 
nietypowych dla danego systemu pominiętych w analizie ilościowej, a silnie wpływających 
na prognozowaną wielkość (np. sprzedaż) w stosunkowo krótkim okresie. 


Neuronowe modelowanie szeregu czasowego 
W procesie prognozowania szeregu czasowego może być zastosowana dowolna sieć 


neuronowa, akceptująca na wejściu wektory o wartościach rzeczywistych oraz wytwa- 
rzająca na wyjściu również sygnał o wartościach rzeczywistych. 
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W badaniach zastosowano następujące rodzaje sieci: 
+ liniowe, 


+ jednokierunkowe trójwarstwowe (inaczej: perceptrony) — MLP (ang. Multilayer 
Perceptron), 


o radialnych funkcjach bazowych — RBF (ang. Radial Basis Function), 


realizujące regresję uogólnioną — GRNN (ang. Generalized Regression Neural 
Networks). 


Najprostsza struktura sieci neuronowej ma tylko jedno wyjście oraz jedno albo więcej 
wejść. Niezależnie od typu sieci liczba neuronów wejściowych i wyjściowych jest jedna- 
kowa dla danych warunków. Zazwyczaj warstwa wyjściowa składa się z jednego neuronu 
(odpowiadającego zmiennej objaśnianej). Liczba neuronów w warstwie wejściowej wynika 
z przyjętego tzw. rzędu prognozy, czyli liczby analizowanych zjawisk poprzedzających 
prognozę. Wątpliwości związane z wyborem architektury dotyczą tylko warstw ukrytych 
sieci (tzn. liczby tych warstw oraz liczby neuronów występujących w tych warstwach). 


Do określania rzędu szeregu czasowego (czyli liczby neuronów wejściowych) wykorzysty- 
wano algorytm genetyczny. Analizowano za jego pomocą różne chromosomy (o długości 
równej maksymalnej liczbie zmiennych objaśniających), uzyskując w efekcie liczbę wejść 
sieci neuronowych wykorzystywanych do predykcji. 


Dla sieci liniowych nie ma potrzeby określania architektury sieci, ponieważ nie występuje 
w ich przypadku warstwa ukryta. Sieci typu RBF oraz GRNN mają ściśle określoną liczbę 
warstw. RBF ma zawsze trzy warstwy, a GRNN odpowiednio składa się z czterech warstw. 
Perceptrony mogą być zbudowane praktycznie z dowolnej liczby warstw. 


Uczenie się 
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Opóźnienie Prognoza 


Rys. 1. Prognozowanie szeregu czasowego (Źródło: [Masters 1996]) 


Zastosowane w badaniach ilościowe prognozowanie polega na określaniu wartości jedno- 
wymiarowego szeregu czasowego. Schematycznie przedstawiono to na rys. 1. Zobrazo- 
wano przykładowe wykorzystanie sześciu kolejnych punktów szeregu czasowego — aby 
w efekcie uzyskać kolejny, dotychczas niewiadomy. Sieć neuronowa powinna najpierw 
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zgromadzić wiedzę na etapie nauki. W kolejnym etapie, w oparciu o zgromadzoną wiedzę, 
może być wykorzystywana do rozwiązywania zadań prognostycznych. Proces uczenia się 
sieci przeprowadza się metodą licznych prób. Każda z nich obejmuje siedem punktów, tzn. 
poczynając od punktu bieżącego (opóźnienie zero), następnie obejmuje pięć punktów 
odwzorowujących stan z przeszłości (opóźnienie od jednego do pięciu) oraz kończąc na 
prognozowanym punkcie z przyszłości. 


Po przygotowaniu (wstępnej analizie) danych, zaprojektowaniu architektury sieci i po jej 
nauczeniu należy dokonać oceny stworzonego modelu szeregu czasowego. Ewaluacji 
modeli predykcyjnych jest poświęcony następny punkt. 


Ocena neuronowych modeli prognostycznych 


Jakościowej oceny neuronowych modeli predykcyjnych można dokonać, porównując wyk- 
resy: rzeczywisty i prognozowany. Jest to często spotykana w literaturze metoda prezen- 
tacji wyników badań. Jednak dopiero ilościowe metody oceny modeli neuronowych 
umożliwiają formułowanie bardziej obiektywnych wniosków. 


Zasadniczo ocenę modeli neuronowych przeprowadza się dwuetapowo. W pierwszej fazie, 
po skonstruowaniu nauczonych sieci, do ich oceny zalecane są [Statsoft 2001] tzw. 
statystyki regresyjne. W drugiej fazie, po nauczeniu sieci, przeprowadza się proces progno- 
zowania. Uzyskuje się zatem, oprócz wartości rzeczywistych, także predykcje zmiennej 
wyjściowej modelu. Pozwala to na wyznaczenie błędów ex post. 


Do statystyk regresyjnych, służących do oceny modeli, po nauczeniu sieci, należą m.in. 
następujące parametry: 
+ średnia (arytmetyczna) wyznaczona na podstawie rzeczywistych wartości progno- 
zowanej wielkości, 
odchylenie standardowe, obliczone dla rzeczywistych danych, 
średni błąd — przeciętna wartość różnic między wartościami prognozowanymi i rzeczy- 
wistymi, 
standardowe odchylenie błędów dla zmiennej prognozowanej, 
średni błąd bezwzględny (średnia z wartości bezwzględnych różnic, wartości prze- 
widywanych przez model oraz wartości rzeczywistych), 
+ iloraz odchyleń standardowych — iloraz standardowego odchylenia błędów i odchylenia 
standardowego rzeczywistych danych (obu parametrów określonych wyżej), 


+ korelacja (właściwie standardowy współczynnik korelacji R Pearsona) — wyznaczony 
dla wartości rzeczywistych i wartości przewidywanych. 


Największe znaczenie dla oceny jakości modeli neuronowych mają: iloraz odchyleń stan- 
dardowych oraz korelacja wartości rzeczywistych iprognozowanych. Ten pierwszy 
parametr dla stworzonych modeli powinien przyjmować wartości rzędu 0,1...0,2. Iloraz 
odchyleń o wartości bliskiej zeru świadczy o dobrej jakości opracowanego modelu. Jeżeli 
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jest on większy od jedności (lub jej bliski), to zaprojektowany model można odrzucić. 
Trudno jest wyrokować w przypadku ilorazu odchyleń na poziomie z przedziału: 0,3...0,7. 
Ostatecznie jakość modelu zależy bowiem od uzyskanych błędów ex post, a ściślej mówiąc 
od tego, czy są one do zaakceptowania w danym przypadku. 


Korelacja wartości rzeczywistych i prognozowanych przyjmuje wartości z przedziału od 0 
do 1. Najlepiej jest, gdy jest ona zbliżona do jedności (im bliżej, tym lepiej). 


Dokładniejszy opis i definicje podanych wyżej parametrów statystycznych (uwzględnia- 
jący specyfikę pakietu komputerowego STATISTICA firmy Statsoft) można znaleźć np. 
w [Statsoft 2001], [http://www.statsoft.com/textbook/glosr.html]. Jeżeli ten zestaw uniwer- 
salnych mierników okaże się dla badacza niewystarczający może na własny użytek, 
określić inne parametry statystyczne. 


Dla lepszej oceny jakości uzyskanego modelu wyżej określone parametry regresyjne na- 
leży wyznaczać osobno dla wszystkich podzbiorów uzyskanych z podziału całkowitego 
zbioru danych. Porównywanie ich ze sobą daje dodatkowe informacje o skonstruowanych 
modelach (zobacz dalszą część tego punktu). 


Z wcześniejszych rozważań dotyczących weryfikacji przeprowadzonej prognozy wynika, 
że w przypadku wyznaczania predykcji szeregów czasowych właściwym miernikiem, 
określającym jakość modelu prognostycznego, są błędy typu ex post. Do ich wyliczenia 
trzeba dysponować parami wartości: rzeczywistych i wyznaczonych za pomocą danego 
modelu. Do najczęściej stosowanych miar jakości modeli neuronowych można zaliczyć 
[Lula 2000]: 


+ sume kwadratów reszt (ang. Sum Squares Error) — SSE = 2% —x), 


t=l 
+ błąd średniokwadratowy (ang. Mean Squares Error) - MSE=SSE/n, 
+ pierwiastek zbłędu sredniokwadratowego (ang. Root Mean Squares Error) — 


RMSE=~ MSE . 


Powyżej określone miary jakości błędów predykcyjnych modeli neuronowych zostały 
wykorzystane w fazie eksperymentów. Podczas tych badań zbiór danych empirycznych był 
dzielony na trzy podzbiory: uczący, walidacyjny oraz testowy. Porównania błędów, 
wyznaczonych dla poszczególnych podzbiorów, dawało dopiero pewną informację 
o jakości opracowanych modeli. Wartości błędów SSE (sumy kwadratów reszt) najczęściej 
wykorzystywano w procesie uczenia sieci, do bieżącej weryfikacji jakości tworzonego 
modelu. Wartość SSE dla zbioru walidacyjnego zapewniała natomiast najczęściej 
informację o właściwym momencie do przerwania procesu uczenia sieci. Wzrost błędów 
dla podzbioru walidacyjnego oznaczał bowiem zreguły spadek możliwości sieci do 
uogólniania nabytej wiedzy (wzrost prawdopodobieństwa ryzyka wystąpienia tzw. 
przeuczenia sieci). Podzbiór testowy gwarantował końcowe badania potwierdzające 
praktyczną użyteczność (bądź jej brak) dla danego modelu neuronowego. 
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Ważnymi parametrami służącymi do ilościowej oceny neuronowych modeli predykcyjnych 
są względne i bezwzględne błędy prognoz. W przypadku postawy pasywnej (charakterys- 
tycznej dla analizy szeregów czasowych) typowym rozwiązaniem jest weryfikacja prog- 
nozy za pomocą błędów ex post. Poniżej przedstawiono zależności służące do wyznaczania 
tego typu błędów [Dittmann 2004]. 


We wzorach przyjęto następujące oznaczenia: 
x, — rzeczywista wartość zmiennej prognozowanej X w momencie t, 
x; — prognoza zmiennej X w momencie t, 
n — numer ostatniej obserwacji zmiennej prognozowanej, 
T — numer ostatniego momentu, dla którego była wyznaczana prognoza (horyzont 
prognozy). 
1. Bezwzględny błąd prognozy ex post dla momentu t: 

A, = X, Xe 
2. Względny błąd prognozy ex post dla momentu t: 

5, =X * 100%. 
t 

3. Średni względny błąd prognoz ex post dla momentów n+1, ..., T: 


* 
K 


. 1 X X 
6-7, Xt 


100% - 


Przyjęcie analizy błędów ex post jest równoznaczne z oczywistym stwierdzeniem, ze 
wszelkie oceny trafności prognoz są związane z porównywaniem wartości przewidywanej 
z rzeczywistą. W badaniach wyznaczano bardzo użyteczne w praktyce tzw. prognozy 
pozorne (lub próbne). Błędy ex post obliczone dla prognoz pozornych pozwalają na ocenę 
wybranej metody prognozowania oraz na jej weryfikację. 


Więcej informacji na temat sieci neuronowych, ich modelowania i zastosowań można zna- 
leźć w obszernej literaturze: np. [Azoff 1994], [Duch, Korbicz, Rutkowski, Tadeusiewicz 
2000], [Lula 1999], [McNelis 2005], [Tadeusiewicz 1993], [Zhang 2004] i innych. 


Badania wybranych metod prognozowania 


Empiryczną weryfikację przydatności wybranych metod prognozowania przeprowadzono 
na podstawie rzeczywistych danych dużego przedsiębiorstwa handlowego. Dane te były 
uformowane w szereg czasowy, opisujący wolumen dziennej sprzedaży jednego produktu 
przez okres około jednego roku. W badanym okresie przedsiębiorstwo kilka razy 
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realizowało różnego rodzaju akcje promocyjne i reklamowe, które silnie oddziaływały na 
wielkość jego sprzedaży. 


W procesie weryfikacji (zarówno podsystemu ilościowego, jak i podsystemu integrującego 
prognozę ilościową zjakościowymi atrybutami decyzyjnymi) zastosowano program 
STATISTICA Sieci Neuronowe opracowany przez firmę Statsoft. Program ten wybrano, 
gdyż jest odpowiednim narzędziem do rozwiązywania zarówno problemów klasyfikacyj- 
nych, dla których zmienna wyjściowa jest wartością nominalną — jak również do analizy 
problemów regresyjnych, gdzie na wyjściu znajduje się ciągła zmienna liczbowa. Badane 
przez autora szeregi czasowe są szczególnym przypadkiem zagadnień regresyjnych. 
W związku z tym — przy użyciu programu STATISTICA Sieci Neuronowe — budowano mo- 
dele sieci do rozwiązywania problemów tego typu. Bardzo pomocna przy przeprowadzaniu 
badań była starannie i zrozumiale przygotowana dokumentacja [Statsoft 2001]. 


W przypadku neuronowego prognozowania szeregu czasowego wyznaczano przewidywa- 
ne wartości zmiennej prognozowanej na podstawie określonej liczby wartości poprzedza- 
jących. Do podstawowych problemów z tym związanych należało więc: 


+ wstępna analiza danych, 

określenie horyzontu prognozy, 

wybór liczby wartości poprzedzających predykcję, 

określenie typu sieci, 

wybranie struktury sieci (tzn. ilości warstw oraz liczby neuronów w tych warstwach), 
uczenie, walidacja oraz testowanie sieci, 


ocena zastosowanego modelu, 


© © * o 


podjęcie decyzji o zakończeniu konstruowania modelu bądź o dalszym poszukiwaniu 
lepszych rozwiązań. 


Badania przeprowadzano dla dwóch wartości horyzontów prognozy: jednego oraz pięciu 
dni. Przewidywania dla jednodniowego horyzontu prognozy umożliwiły wstępną orientację 
odnośnie jakości opracowanego modelu. Predykcje pięciodniowe, ze względu na efekt 
kumulowania się błędów prognoz, wyraźnie określały, czy z uwagi na wielkość osiągnię- 
tego ostatecznie średniego błędu prognoz dany model jest użyteczny w praktyce. 


Wybór liczby wartości, poprzedzających predykcję, dokonywany był doświadczalnie, aż 
do uzyskania najmniejszych wartości błędów prognoz. Podjęto również próby wykorzysta- 
nia do tego celu algorytmu genetycznego. 


W badaniach uwzględniono cztery typy sieci: liniowe, MLP, RBF oraz GRNN. Użycie 
sieci liniowych, będących analogią do liniowej funkcji regresji, stanowiło dogodny punkt 
odniesienia dla dalszych analiz szeregu czasowego z użyciem innych, bardziej złożonych 
modeli. Z kolei na perceptrony trójwarstwowe autor zdecydował się ze względu na ich 
uniwersalne możliwości, prostotę zastosowania oraz duże prawdopodobieństwo uzyskania 
sensownych rezultatów. Pozostałe typy sieci zastosowano w poszukiwaniu lepszego 
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rozwiązania. Nie było bowiem przesłanek sugerujących ich odrzucenie, a ewentualne 
korzyści (np. krótki czas uczenia) zachęcały do eksperymentów. 


Liczba neuronów w warstwie wejściowej wynikała z przyjętej liczby wartości poprzedza- 
jących predykcję. Ze względu na charakter rozwiązywanego problemu, tzn. prognozowanie 
jednowymiarowego szeregu czasowego, w warstwie wyjściowej każdej sieci znajdował się 
jeden neuron. Struktury zastosowanych sieci wynikały z zasad ich funkcjonowania (dla 
sieci liniowej - dwie, dla sieci RBF - trzy, natomiast dla sieci GRNN - cztery). W przypad- 
ku sieci MLP zdecydowano, że nie będą badane sieci o większej złożoności niż trzy war- 
stwy. W większości zagadnień praktycznych perceptron trzywarstwowy zapewnia bowiem 
wystarczające dobre wyniki, a zwiększanie złożoności sieci pociągałoby za sobą wydłu- 
zanie czasu uczenia oraz zwiększanie ryzyka tzw. przeuczenia itp. 


Do badań empirycznych dobrano podziały na podzbiory danych: uczący, walidacyjny i tes- 
towy. Skutkowało to uzyskiwaniem dobrych rezultatów np. dobrą generalizacją wiedzy 
oraz względnie małymi błędami prognoz. 


Do weryfikacji opracowanych modeli neuronowych wykorzystywano statystyki regresyjne 
oraz analizę błędów scharakteryzowaną w poprzednim punkcie. 


W ramach wstępnych eksperymentów przeprowadzono badania związane z opracowywa- 
niem modeli do weryfikacji przydatności do predykcji szeregu czasowego pojedynczych 
sieci neuronowych. Wszystkie badane i oceniane pod kątem rozwiązywania zagadnień reg- 
resyjnych modele charakteryzowały się złymi parametrami dla badanego w pracy szeregu 
czasowego (szczegóły [Grzeszczyk 2005]). Stanowi to wstępne potwierdzenie założenia 
badawczego o braku możliwości wyznaczania predykcji dla szeregu czasowego (jeżeli 
występują nietypowe zjawiska — w tym przypadku promocja) za pomocą pojedynczych 
sieci neuronowych realizujących wyłącznie analizę ilościową. 


Tabela 1. Statystyki regresyjne oraz błędy charakteryzujące pojedynczą sieć neuronową typu MLP 
(6—10—1) dla prognoz jedno- i pięciodniowych (Źródło: badania własne). 


| | Prognozy jednodniowe | Prognozy pigciodniowe | 


MSE 
SSE 
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Ostateczne wykazanie słuszności przyjętych założeń może jednak być dokonane po wyzna- 
czeniu konkretnych wartości prognoz pozornych oraz obliczeniu błędów (czyli przeprowa- 
dzeniu weryfikacji przeprowadzonej prognozy). Wielkości tych błędów (tabela 1) po 
zestawieniu ich z błędami uzyskanymi dla prognoz realizowanych za pomocą konkurencyj- 
nej metody zintegrowanej (zespolonej — równoległej), stanowiły podstawę do formułowa- 
nia wniosków oraz podsumowań. 


Z przedstawionych wyników badań widać, że w pewnych przypadkach jest niecelowe zas- 
tosowanie do prognozowania szeregu czasowego pojedynczych sieci neuronowych (reali- 
zujących wyłącznie analizę ilościową). 


Parametry regresyjne, uzyskane dla sieci MLP (rys. 2.) wykorzystywanej w procesie integ- 
racji wyników ilościowych oraz wartości wynikających z analizy jakościowej, zaprezen- 
towano w tabeli 2 oraz 3. 


Zgromadzone w tabeli 2 wyniki są, tak jak w przypadku wszystkich przeprowadzonych 
badań, podzielone na trzy części odpowiadające odpowiednim podzbiorom danych 
wykorzystywanych w procesie tworzenia modelu. Zbliżone wartości parametrów zapisane 
w trzech kolumnach świadczą o dobrej zdolności tej sieci zarówno do aproksymacji 
(zobacz wyniki dla podzbioru uczącego) jak i generalizacji (zbiór walidacyjny i testowy). 


| 14 
JAKOŚCIOWE | 
ATRYBUTY DECYZYJNE 
| PROGNOZA 
| KOŃCOWA 
PROGNOZA s 
ILOŚCIOWA {1 
Ti 


Rys. 2. Schemat sieci integracyjnej (MLP 12 — 5 — 1) wykorzystanej do predykcji zespolonej 
(źródło: badania własne) 


Przynależność do poszczególnych podzbiorów została wybrana drogą losowania. Wartości 
średnie (wyliczone jako średnie arytmetyczne dla tych trzech podzbiorów) mają podobne 
wartości. Można zatem mieć zaufanie do uzyskanych wyników (trzy podzbiory są 
porównywalne). 


Średni błąd bezwzględny został wyznaczony (w przeciwieństwie do powyżej opisanego 
błędu) przy obliczaniu wartości bezwzględnych z różnic między wartościami teoretycz- 
nymi (danymi) a wartościami uzyskanymi na wyjściu modelu. Stosunkowo niewielkie 
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średnie (rzędu 1,2 ... 1,4) wyznaczone z modułów różnic dobrze świadczą o opracowanym 


modelu. 


Tabela 2. Parametry regresyjne podsystemu integracyjnego po procesach: uczenia, walidacji oraz 


testowania (Źródło: badania własne). 


Uc. VARI | Wa. VARI | Te. VARI 
Średnia 13,0763 | 14,02207 | 13,43357 
Odch. std. | 5,214087 | 6,293788 | 5,715262 
Średni błąd |0,2244212| -0,1436 |0,2999298 
Odch. błędu | 1,642225 | 1,889649 | 1,855863 
Śr. bł. bezwz. | 1,279551 | 1,486854 | 1,43317 
Iloraz odch. | 0,3149592 | 0,3002403 | 0,3247205 
Korelacja | 0,949176 | 0,9549971 | 0,9470425 


Odchylenie standardowe (pierwiastek z wariancji) również wyznaczono dla wartości 
rzeczywistych pochodzących z trzech podzbiorów. Samo w sobie nie stanowi ono miernika 
istotnie charakteryzującego opracowany model. Zostało jednak wykorzystane w dalszych 


obliczeniach. 


Średni błąd (różnic) między wartościami rzeczywistymi i wyznaczonymi za pomocą 
modelu ma stosunkowo małą wartość (rzędu 0,2 dla podzbiorów: uczącego i testowego). 
Z tych różnic wartości nie obliczano wartości bezwzględnych. Z tego wynika ujemna 
wartość tego parametru dla podzbioru walidacyjnego. 


Odchylenia standardowe szeregów błędów (rzędu 1,6...1,8) świadczą o niedużym odchyla- 
niu się wartości błędów od średniej. Ten parametr jest istotny z punktu widzenia wyznacza- 
nia ważnego miernika modelu - ilorazu odchyleń. 


Ostatnie dwa parametry (z tabeli 2) ostatecznie potwierdzają dobrą jakość stworzonego 
modelu MLP. Iloraz odchyleń standardowych (błędów i danych) dla trzech podzbiorów — 
z dokładnością do pierwszego miejsca po przecinku — osiągnęły tę samą (małą) wartość 
0,3. Odchylenie standardowe danych (występujące w mianowniku ilorazu) jest określone 
dla danych podlegających analizie. Stosunkowo mała wartość ilorazu świadczy zatem 
o niedużej wartości odchylenia standardowego błędów (znajdującego się w liczniku 
ilorazu) w relacji do odchylenia danych rzeczywistych. Uznano tę wartość ilorazu za 


zadowalającą. 


Współczynniki korelacji między wartościami rzeczywistymi i wyznaczonymi za pomocą 


modelu MLP dla trzech podzbiorów osiągnęły bardzo dobre wartości (rzędu 0,95). 


Parametry zapisane w tabeli 2 stanowiły podstawę do podjęcia decyzji o kontynuowaniu 
eksperymentów z modelem MLP (12 — 5 — 1). W tabeli 3 zaprezentowane zostały para- 
metry związane z obliczeniami przeprowadzonymi dla zbioru danych zarezerwowanych 
dla wyznaczania prognoz pozornych. 
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Tabela 3. Statystyki regresyjne dla sieci integracyjnej (źródło: badania własne). 


Prognozy jednodniowe | Prognozy pięciodniowe 
Średnia 12,79744 13,60029 
Odch. std. 6,129125 5,894798 
Średni błąd -0,0007616 -1,209961 
Odch. błędu 0,865924 1,301256 
Śr. bł. bezwz. 0,6961551 1,501071 
Iloraz odch. 0,1412802 0,2207464 
Korelacja 0,9899777 0,9756788 
RMSE 0,8548 1,763 
MSE 0,73 3,12 
SSE 28,47 109,2 
Średni błąd względny 7,47% 11,47% 


Opracowany wcześniej model MLP zastosowano do wyznaczania prognoz pozornych 
z dwoma horyzontami: jedno- i pięciodniowymi. Podstawowy parametr (tzn. iloraz odchy- 
leń standardowych błędów i danych) świadczący o jakości zastosowanego modelu osiągnął 
zadowalające wartości. Dla prognoz jednodniowych uzyskano wartość rzędu 0,1, natomiast 
dla pięciodniowych rzędu 0,2. Korelacja na poziomie 0,9 też dobrze świadczy 
o zastosowanym modelu. 


Ostatnim miernikiem (tabela 3) potwierdzającym użyteczność zaproponowanej metody 
zespolonego prognozowania jest średni błąd względny prognoz. Uzyskane wartości (dla 
prognoz jedno- i pięciodniowych, odpowiednio: 7,47% oraz 11,47%) są dla analizowanego 
szeregu czasowego zadowalające. 


Podsumowanie 


Przedstawione badania empiryczne potwierdziły trafność założeń odnośnie konieczności 
stosowania w pewnych przypadkach zintegrowanych metod sztucznej inteligencji, zamiast 
prostych pojedynczych sieci neuronowych realizujących ilościową analizę szeregów czaso- 
wych. Opracowane i zastosowane modele pojedynczych sieci neuronowych okazały się 
nieprzydatne do prognozowania wybranego szeregu czasowego. Stwierdzono natomiast, że 
wybrany model, wykorzystujący pojedynczą sieć neuronową, jest użyteczny jako 
podsystem analizy ilościowej zintegrowanej (zespolonej) metody prognozowania. 


Wprowadzony podział zbioru danych na trzy podzbiory pozwalał na zwiększenie prawdo- 
podobieństwa eliminacji modeli źle generalizujących posiadaną wiedzę. Można było 
zmniejszyć ryzyko przypadkowości w doborze sieci sprawnie funkcjonujących dla 
wszystkich trzech podzbiorów. Nie można mieć pewności, że zastosowanie innych 
(nieuwzględnionych w badaniach) typów sieci będzie prowadzić do lepszych lub gorszych 
rezultatów. Jednoznacznie nie stwierdzono, że zastosowano optymalne architektury bada- 
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nych typów sieci. Było to zresztą zadanie niemożliwe do ustalenia. Nie istnieją obecnie 
bowiem algorytmy doboru struktur sieci gwarantujące brak innych, lepszych rozwiązań. 
Przy doborze liczby neuronów występujących w poszczególnych warstwach potwierdziła 
swoją przydatność metoda prób i błędów. 


Zastosowanie algorytmu genetycznego do doboru liczby neuronów w warstwie wejściowej 
okazało się mniej przydatne w relacji do wyników uzyskanych w sposób intuicyjny. 


Opracowane oraz wybrane modele potwierdziły swoją przydatność do późniejszych 
zastosowań predykcyjnych. 


Wybrany przez autora program STATISTICA Sieci Neuronowe firmy Statsoft jest spraw- 
nym narzędziem do symulowania sieci neuronowych. Umożliwia niewątpliwie szybkie 
tworzenie wielu modeli o różnych zastosowaniach. Poważny problem stanowi zawsze 
odpowiednie przygotowanie danych wejściowych oraz wybór właściwej metody postę- 
powania, prowadzącej do opracowania modeli o akceptowanych parametrach. 


Stwierdzono, że na etapie tworzenia modeli neuronowych do oceny uzyskanych rezultatów 
projektowych zupełnie wystarczające są parametry regresyjne. Ocena modeli jest możliwa 
przez porównywanie wartości tych parametrów dla różnych zbiorów. Niekoniecznie bo- 
wiem najmniejsze błędy, występujące dla zbioru uczącego, przesądzają o wyborze danego 
modelu. Ważne są również parametry uzyskiwane dla pozostałych podzbiorów danych. 


Wyniki eksperymentów można uznać za wiarygodne, ponieważ przeprowadzono badania 
dla różnych horyzontów czasowych (prognoz jedno- i pięciodniowych). Potwierdzono 
założenie badawcze, ponieważ w przypadku modelu zbudowanego na bazie pojedynczej 
sieci neuronowej (MLP o strukturze: 6 — 10 — 1) średnie błędy względne dla dwóch 
horyzontów predykcji (odpowiednio: 28,77% oraz 35,62%) wskazywały na nikłą 
praktyczną przydatność opracowanego modelu. Obliczenia wykonane dla podzbioru 
zarezerwowanego dla wyznaczania prognoz pozornych za pomocą nowej zespolonej 
metody prognozowania charakteryzowały się znacznie mniejszymi wartościami błędów. 
Dla predykcji jednodniowych i pięciodniowych wartości średnich błędów względnych 
(wynoszących odpowiednio: 7,47% oraz 11,47%) wskazywały na praktyczną użyteczność 
opracowanej metody prognozowania zintegrowanego. 


Uzyskane wartości średnich błędów względnych mogą stanowić pewną wskazówkę 
odnośnie doboru metod prognozowania związanych z sieciami neuronowymi (lub szerzej 
sztuczną inteligencją). Modele zbudowane na bazie pojedynczej sieci neuronowej (realizu- 
jące wyłącznie analizę ilościową) nie są praktycznie użyteczne w przypadku występowania 
nietypowych (oraz krótkotrwałych) wydarzeń silnie wpływających na prognozowane 
wartości. Należy wtedy niewątpliwie stosować bardziej złożone metody predykcji, które 
np. w sposób jakościowy uwzględniają wpływ tych nietypowych przypadków. 
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